python train.py --load_model "/workspace/rwkv-phi3.5-instruct.pth" \
 --wandb "RWKV-LM-RLHF xa070 RWKV-Mistral" --proj_dir "/workspace/output/mistral3small/stage3" \
 --vocab_size 131072 --ctx_len 5120 \
 --epoch_steps 500 --epoch_count 200 --epoch_begin 0 --epoch_save 1 \
 --micro_bsz 2 --n_layer 40 --n_embd 5120 --dim_ffn 32768 \
 --lr_init 1e-5 --lr_final 1e-6 \
 --warmup_steps 100 --beta1 0.9 --beta2 0.999 --adam_eps 1e-8 \
 --accelerator gpu --devices 1 --precision 'bf16' \
 --grad_cp 1 --my_testing "xa070" \
 --strategy deepspeed_stage_2_offload \
 --layer_profile 'layerprofile/40_TEST_bone.csv' \
 --quant 0 \
 --quant_mode 'int8'\
 --gpu_arch 'cuda' \
 --limited_lora 0 \
 --sft 1 \
 --sft_jsonmode 1 \
 --sft_jsonmode_tokenizermode 'mistralsmall3' \
 --smoothing 0.001 \
 --random_mode 1 \
 --infctx_dataset_multiplier 4 \
 --optim '' \
 --train_data_file '/workspace/r2' \
 --accumulate_grad_batches 8
